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Beschreibung 

Die vorliegende Erf indung betrif ft digitale Verfahren 
zur Vefarbeitung von. Sprachsignalen Sie betrifft .insbe- 
sqndere Verfahren, die eine Erfassung von StimmaktivitSt 
anwenden, urn dif f erenzierte Verarbeitungen je nachdem 
durchzufuhren, ob das Signal eine StimmaktiviLSt aufweist 
Oder nicht. 

Die betreffenden digitalen Verfahren beziehen sich 
auf verschiedene Fachgebiete: Sprachcodierung fur .die 
Ubertragung oder Speicherung oder Erkennung von Sprache, 
Verrainderung von Rauschen, Echounterdriickung usw. 

Die Verfahren zur Erfassung von Stimmaktivitat haben 
als hauptsachliche Schwierigkeit die Unterscheidung zwi- 
schen der Stimmaktivitat und dem sie b^gleitenden Larm 
bzw, Rauschen.- Die Zuhilfenahme eines klassischen Rausch- 
unterdruckungsverf ahrens gestattet es nicht, diese 
Schwierigkeit zu beharideln, da diese Verfahren wiederum 
SchStzungen des Rauschens anwenden, die von dem Grad der 
Stimmaktivitat des Signals abhSngen. Dieses Problem ist 
beispielsweise in der Schrift OS-A-565S622 beschrieben. 

Ein Hauiptziel der vorliegenden Erf indung ist es, die 
Robustheit der Verfahren zur Erf assung . von Stimmaktivitat 
gegen Rauschen zu verbessern. Urn dieses Ziel zu errei- 
chen, wird ein Verfahren gemSS den- Angaben in Anspruch 1 
vorgeschlagen . 

So schiagt die Erf indung ,ein Verfahren zum Erfassen 
von Stimmaktivitat in einem in auf einanderfolgenden 
Blacken behandelten digitalen Sprachsignal vor, bei dem 
das Sprachsignal einer Rauschunterdruckung unter Beruck- 
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sichtigung von Schatzungen des im Signal enthaltenen Rau- 
schens unterzogen wird, die far jeden Block auf eine 
Weise aktualisiert werden, die von zumindest einera fur 
den betreffenden Block bestimmten Gradder Stimtnaktivitat 
abhSngt. Erf indungsgemas wird eine apriorische Rausch- 
unterdruckung des Sprachsignals eines jeden Blocks auf 
der Grundlage von Schatzungen des Raus,chens durchgefuhrt , 
die bei der Behandl.ung von mindestens einem vorhergehen- 
den Block erhalten wurden, und die Variationen der Ene^- 
gie des apriorisch rauschunterdriickten Signals analysiert 
werden, urn den Grad der- StimmaktivitSt des ^ Blocks zu 
.erfassen, 

Der Umstand, dafi die . Erf assung der Stimmaktivitat 
(gemaS. einem Verfahren, bei dem es sich im wesentlichen 
urn jegliches bekannte Verfahren handeln kann) auf . der 
Grundlage eines apriorisch rauschunterdrupkten Signals 
durchgefuhrt wird, verbessert wesentliche die Leistungs- 
fahigkeit diieser Erf assung, wenn das Umgebungsrauschen 
relativ stark ist.' 

In der Folge'der vorliegenden Beschreibung wird das 
erf indungsgemaSe Verfahren zum Erfassen von Stimmaktivi^ 
tat an einem System zur Rauschunterdruckung eines Sprach- 
signals .veranschaulicht . Es ist ersichtlich, daS dieses 
Verfahren Anwendungen in zahlreichen weiteren Arteri der 
digit alen Spirachverarbeitung f inden kann, bei denen es 
erwiuLnscht ist, uber eine Information, beiuglich des Grades 
der Stimmaktivitat des yerarbeiteten Signals zur verfii- 
gen: Codierung, Erkennung, Echounterdruckung usw. 

Weitere Details und Vorteile der vorliegenden- Erf in- 
ciung ergeben sich aus der nachf olgenden Beschreibung von 
nicht-einschrtnkenden Ausfiihrungsbeispielen uhter Bezug- 
nahme- auf. die beigefugte Zeichnung. 
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Es. zeigt : . 

Fig. 1- eine echematische Ubersicht eines Rauach- 
unterdruckungssystems, das die vorliegende Erfindung 
anwendet ; 

- Fig, 2 iind 3 Organigramme ' von Prozeduren, die durch- 
einen Stimmaktivitatsdetektor des Systems * voa Fig, 1 
angewendet werden; , . , 

- Fig. 4 ein Diagramm, das die ZustSnde eines Automa- 
ten.zur Erfassung von Stimmaktivitat. darstellt? 

Fig. 5. ein Diagramm zur Veranschaulichung der 
Variationen eines Grades der Stimmaktivitat; 

- Fig, 6 eine schematische Ubersicht eines Moduls zur 
Uberbewertung von Rauschen des Systems von Fig, 1; • 

- Fig, 7 ein Diagramm' zur Veranschaulichung der 
Berechniing einer Maskierungskurve; und 

- - Fig, 8 ein Diagramm zur Veranschaulichung der 
Nutzving der Maskierungskurven in- dem System von Fig, 1. 

Das in Fig. 1 dargestellte System, zur Rauschunter- 
druckung behandelt ein digitales Sprachsignal s. Ein Fen- 
sterbildungsmodul 10 bringt dieses Signal s in die Form 
von aufeinanderfolgenden Fens tern oder Blocken, di« 
jeweils aus einer Anzahl N von Abtaetproben eines digita- 
len Signals bestehen. Auf klassische Weise konnen diese 
BlScke gegenseitige Uberlappungen aufweiseh. In der nach- 
folgenden Beschreibung wird angenommen^ ohne dafi dies 
einschrSnkend gedacht; ist, daB die Blocke aus N » 256 
Abtastproben mit einer Abtastrate Fg von 8 kHz bestehen, 
mit einer Hamming- Wichtung in jedem Fenster, und Uberlap- 
pungen von 50% zwischen aufeinanderfolgenden Fenstem. 

Der Signalblock wird durch ein Modul 11, das einen 
klassischen Algorithmus dier schnellen Fourier-Transforma- 
tion (TFR) fur die Berechnung des Module des Spektrums; 
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des Signals anwendet, in deri Frequenzbereich* transfer- 
miert. Das Modul 11 liefert somit eine mit S^^f bezeich- 
. nete Gesainthelt von N « 256 Frequenzkomponenten des 
- ■ Sprachsignals, wobei n die Nummer - des momentanen Blocks 
5* und f. eine Frequenz des diskreten Spektrums bezeichnet. 
Aufgrund der Eigenschaf ten der digitalen . Signale im Fre- 
quenzbereich warden nur die N/2 = 128 ersten Abtastproben 
verwendet . 

Fur die Berechnung der Schatzungen des in dem Signal 
s enthaltenen Rauschens wird nicht die am Ausgahg der 
schnellen Fourier-Transformation verfugbare Frequenzauf- 
losung verwendet, sondem eine schwachexe Auflosung, die 
durch eine Anzahl I von Frequenzbandern bestimmt ist , 
welche das Band [0, des Signals abdeckt. Jedes Band 

i (1 £ i £ I) erstreckt sich zwischen einer unteren Fre- 
quenz f{i-l) und einer oberen Frecjuenz f (i>/ wobei f(0) = 
0, und till = Fe/2. Dieses Zerschneiden in Frequenz binder 
kann gleichformig (f (i) -f (i-1,) « Fe/2I) sein. . Es. kann 
auch nicht gleichfdrmig sein (z.B. gemSB einer Barks- 
Skala) . Ein Modul 12 berechnet die jeweiligen Mittelwerte 
der Spektralkdmponenten Sjj^f des Spirachsignals pro Ban- 
dem, beispielsweise durch . eine gleichf ormige Wichtung 
wie etwa: 

Sn.i = ZSn,f (1) 

f<i) - f(l - 1) £e[f(i.i),f(i)( 

Diese Mittelwertbildung vermindert die Schwankungen 
zwischen den Bindern durch Mitteln der Beitrage des Rau- 
30 schens in diesen BSndern, wodurch die Varianz des SchSt- 
zers des Rauschens. vermindert wird. Des weiteren gestatr 
tet diese Mittelwertbildung eine starke . Verringerung der 
Komplexitat des Systems, 
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Die gemittelten Spektralkomponenten i werderi an 
ein Modul. IS fiir die Erfassung von Stimmaktivitat und an 
ein • Modul 16 zur Schatzung des Rauschens ' adressiert. 
Diese. beiden Module 15, 16 arbeiten insofem gemeinsam, 
5 als.von dem Modul 15 fiir die verschiedeixen Binder gemes- 
sene Stimmaktivitatsgrade y^^^ .von dem Modul 16 fur die 
Schatzung der Langzeitenergie des Rauschens in den ver- 
schiedenen Bandern verwendet werden, wShrend diese Lang- 
zeitschatzungen Bj^^^ von dem Modul 15 vferwendet werden, 
10 urn eine apriorische Rauschunterdruckung des Sprachsigrials 
in den verschiedenen- BSndern vorzunehmen, urn die Stimm- 
aktivitatsgrade i zu bestimmen. 

Der Betrieb der Module 15 und 16 kann den in Fig, 2 
15 und 3 darges tell ten Organigrammen entsprechen. 

In den Schritten 17 bis 20 fuhrt das Modul 15 die 
apriorische Rauschunterdruckung des Sprachsignals in den 
unterschiedlichen B^dexn i fur den Signalblock n durch, 
Diese apriorische Rauschunterdruckung wird gemaE einem 
klassischen Vorgang- zur nichtlinearen Spektralsubtraktion 
ausgehend von Schatzungen des Rauschens. . durchgefuhrt, 
welche .bei einem oder mehreren vorausgegangenen Blocken 
erhalten wurden. In Schritt 17 l)erechnet das Modul 15 mit* 
25 der Auflosung der Bander i . den Frequenzgang Hpn;i des 
Filters fiir die . apriorische Rauschunterdrxickung gemaS der 
Forme 1: 



20 



30 



Sn-T2,i 



. wobei xl und t2 als Anzahl von BlScken ausgedruckte 
Verzdgerungen sind (xl i 1, t2 0)., und a'n,i ©in Koeffi-* 
zient der Uberbewertung des Rauschens ist, dessen Bestim- 
mung weiter unten erltiitert wird. Die • VerzSgerung, xl kann. 
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festgelegt (z.B. tl = l) oder auch variabel sein. Sie ist 

■ umso geringer, .je starker man sichauf die Erfassung der 

■ Stimmaktivitat verlifit. 

5 In den Schritten 18 bis 20 werden die Spektralkompo- 

henten Ep^^i berechnet gemaS: 

10 wobei ein Untergrenzenkoef f izient nahe 0 ist, der 

klassischerwei.se dazu dient zu vermeiden, daS das Spek- 
trum des entrauschten Signals negative oder ubermaSig 
schwache Werte annimmt, die ein mtisikalisches Gerausch 
hervorrufen wurden, 

IS; ' • ■ • . 

Die Schritte 17 bis 20 bestehen somit im wesent lichen 
darin, von dem Spektrum dee Signals eine durch den Koef- 
. f izienten ct'n-Ti,i majbrierte SchStzung- des apriorisch 
geschatzten Spektrums des Rauschens zu subtrahieren . 

20 • * 

In Schritt 21 berechnet das Modul 15 die Energie des 
apriorisch rauschunterdrfickten Signals in* den verschiede- 
nen BSndem i fur den Block n: E^,! = Ep^ Es berechnet 
auch . einen globalen Mittelwert E^ .q der Energie des 

25 apriorisch rauschunterdr^ickten Signals d\irch eine Summe 
der Energien pro Band E^^^, die mit den Breiten dieser 
Binder gewichtet sind. in. den nachf olgenden . Angaben wird 
der -Index i = 0 dazu verwendet, das globale Band des 
Signals zu bezeichnen. 

30 . 

In den Schritten 22 und 23 berechnet das Modul 15 fur 
jedes Band i . (0^ i ^ I) eine GroSe AE^^i, welche fur die 

' Kurzzeitvariation der Energie des entrauschten Signals im 
Band i steht^. sowie einen Langzeitwert- En,t der Energie 

35 des entrauschten Signals im Band i. Die Gr6Se AE^^i kann 
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berechnet werden durch eine vereinfachte Ableitungs- 



Was die 



formel: AEn i = 

10 

Langzeitenergie En,i betrifft, so kann diese- mit Hilfe 
• eines Vergessensf aktors Bl wie etwa 0 <' Bl < 1 berechnet 
5 werden, nSmlich En,i = Bl • En-i,! + (1 " BD ■ Ea.i • 

Nach der Berechnung der Energien E^^^ des rausch- 
unterdrflckten Signals, seiner Kurzzeitvariationen AEjj^i* 
und seinei- Langzeitwerte En,i a^f in Fig. 2 angege- 

10 bene Weise berechnet das Modul 15 fUr jedes Band i (0 ^ i 
^ I) einen Wert p^, der fur die Evolution der Energie des 
rauschunterdruckten. Signals steht Diese Berechnung wird 
in den Schritten. 25^ bis 36 von Fig* 3 vorgenommen , die 
fur jed^s Band i zwischen i=0 und i=I durchgefOhrt wer- 

15 den. Diese Berechnung wendet einen* LarigzeitschStzer ba^ 
der Umhullenden des Rauschens, einen internen .SchStzer 
bii und einen Zahler b^ fur verrauschte Blocke an. 

InSchritt 25. wird die GroBe ^ AEn,i. mit einem Schwell- 
.20 wert si verglichen. Wenri der Schwellwert ei nicht 
erreicht .wird, wird der ZShler b^ .in Schritt 26 urn eine 
Einheit inkrementiert • In Schritt 27 wird der Langzeit- 
schatzer ba^ mit dem Wert der gegiatteten Energie In i 
verglichen- Falls . bai ^. En,i'- ^i^^ der SchStzer ba^^ 
25 glelch dem gegiatteten Wert En,i in Schritt 26 genommen,. 
•und der Zahler b^ wird auf Null zuruckgesetzt . Die GroSe 
Pi,' die gleich dem Verh&ltnis bai/En,i • S^nommen wird 
(Schritt 36), ist somit gleich 1. . 

30 Wenn. Schritt 27 ergibt, dafi- ba^ < En,i# wird der Zah- 

ler b^ in Schritt 2.9 mit. eihem Grenzwert bmax verglichen. 
Falls bjL > bmax, wird angenommen, dafi das. Signal zu 
stationar ist, urn Stimmaktivitat zu unterstutzen. Darauf- 
hin wird der oben gehannte Schritt 2& durchgefiihrt , der 

3 5 in der Annahme besteht/ dafi der Block ttur Rauschen 
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. . beinhaltet. Falls ^ braax in Schritt 29, wird der 
interne Schatzer bi^ in Schritt 33 berechnet gemaS: 

bii = (l-Bm) • En i + Bm • ba^ (4) 

'5 ■ ■ * ■ ' 

In dieser Formel steht Bm fur einen zwischen 0,90 und 
1 liegenden Aktualisierungskoef f izieriten. Sein Wert ist 
je nach dem'zustand eines Aut.omaten fur die Erfassung von 
Stimmaktivitat verschieden (Schritte 30 bis 32) Dieser 

10 Zusand S^.^ ist derjenige, der bei der Verarbeitung des 
vorherigen Blockes bestimmt wurde. Falls sich der Automat 
in einem Zustand der Erfassung von Sprache befindet (5^-1 
=5. 2 in schritt 30) , nimmt der Koeffizient Bm einen Wert 
Bmp an/ der sehr nahe bei l liegt, damit der Schatzer des 

15 Rauschens bei Vorhandensein von* Sprache. sehr geringfugig 
aktualisiert wird.. Im entgegengesetzten Fall nimmt der 
Koeffizient Bm einert geringeren Wert Bms an, um in einer 
Stillephase eine bedeutendere Aktualisierung des Schat- 
. zers des Rauschens zu ermoglicheri. In Schritt 34 wird der 

20 Abstand ba^ - bi^ zwischen dem LangzeitschStzer uhd dem 
internen • Schatzer des Rauschens . mit einem. Schwellwert e2 
verglichen. Wenn der Schwellwert e2 nicht erreicht wird, 
wird der Langzeitschatzer ba^ in Schritt 35 mit dem Wert 
des. intemen Schatzers ; bi^^ aktualisiert. Andemfalls 

25 bleibt der Langzeitschatzer ba^ unverandert. * Es wird 
somit . vermieden^ daS abrupte Variationen aufgrund eines 
Sprachsignals zu einer ' Aktualisierung des Schatzers des 
Rauschens fvLhren- 

30 . .. Nach dem Erhalt der GrdSeh nimmt das Modul 15. die 
Entscheidungen der Stimmaktivitat in Schritt 37 vor. Das 
. Modul 15 aktualisiert zuerst dea Zustand des Erfassungs- 
. automaten gemas der fUr die Gesamtheit des Bandes des 
Signals berechneten GrdSe p(,. Der neue Zustand Sj^ des 
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Automaten hangt von dem vorhergegangenen Zustand b^^^ und 
von po ab, wie in Fig. 4 dargestellt ist. ■ 

Vier Zustande sind mdglich: 6 = Oerfafit Stille bzw. 
5 Abwesehheit von Sprache; 5 = 2 erfafit das Vorhandensein 
eiher StimmaktivitSt / und die Zustande 6 = 1 und 8 . 3 
sind dazwischenliegende Zustande des Anstiegs und Abfal- 
lens.* Wenn sich der Automat im Zustand von Stille (S^.^ = 
0) befindet, bleibt er dort, wenn Po nicht eine- erste 

10 Schwelle SEL ubersteigt,. und geht im entgegengesetzten 
Fall in den Anstiegszustand Gber. Im Anstiegs2ustand (5„^ 
T a .1) kehrt er in den Zustand von Stille zuaruck , wenn pQ 
kleiner als der Schwellwert SEl ist, geht in den Zustand 
der Sptache abet, wenn Po grdSer. als eine uber der 

15 Schwelle SEl.. liegeride Schwelle' SE2 ist, und bleibt im 
Anstiegszustand, falls SEl ^ Po ^ SE2, Wenn sich der 
Automat im Zustand der Sprache (S^.x = 2). befindet, so 
bleibt erdort, falls pQ eine unter der Schwelle SE2 lie- 
gende dritte* Schwelle SE3 igt, und geht im entgegenge- 

.20 setzten Fall in den , Abstiegszustand . uber . Im Abstiegs- 
zustand (5^-1 = 3) kehrt der Automat in den Zustand der 
Sprache zuruck, falls de Po grdSer als der Schwellwert 
SE2 ist, kehrt in den Zustand der Stille ;5ur<ick, wenn po 
diesseits. eines unter dem Schwellwert SE2 iiegenden vier- 

25 ten ^cbwellwerts SE4 ist, und bleibt im Abstiegszustand, 
falls SE4 S Po $ SE2. 

In Schritt 37 berechnet das Modul IS des weiteren die 
Stimmaktivitatsgrade yn,i in jedem Band i ^ 1, .Dieser 

30 Grad Yn^i " ist vorzugsweise ein nicht-bin§rer Parameter, 
d-h, die Funktion Yjj*^ = g<Pi) ist eine Funktion, die in 
Abhcingigkeit von den durch die Grofie pi angenotmnenen Wer- 
ten kontinuierlich zwischen 0 und 1 vdriiert. Diese Funk- 
tion besitzt beispielsweise den in Fig, 5 dargestellten 

35 Verlauf.. 
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Das Modul 16^ berechnet die Schatzungen des Rauschens 
pro Band, die im • Raiischunterdriickungsvorgang verwendet 
werden, unter Anwehdung der auf einanderfolgenden Werte 

, der ■ Komponenten S^^i und der Stimmaktivitatsgrade Yn i- 
Dies entspricht den Schritten 40 bis 42 von Fig. 3. In 
Schritt 40 wird bestimmt, ob der Automat fdr die Erfas- 
. Sling von Stimmaktivitat aus dem Anstiegszustand in den 

, Zustand der Sprache Obergegangen ist. Falls . ja, werden 
die vorausgehend fur jedes Band i ^ 1 berechnet en beiden 
letzten Schatzungen B^^^'i und B^^2,i gemag dem' vorausge- 
gangenen Schatzwert B^^^,! korrigiert. Diese Korrektur 
wird durchgefuhrt, urn den Umstand zu berucksiehtigen., daS 
in der Anstiegsphase . (5 =1) die LangzeitschStzungen der 
Energie des .Rauschens in dem- Vorgang far die Erfassung 
von Stimmaktivitat (Schritte 30 bis 33) so berechnet wer- 
den konnten, als ob das Sign?il nur Rauschen beinhaltete. 
(Bm = Bms), so dalS- die Gefahr besteht, dafi sie mit einem 
Fehler behaftet sind^ 

In Schritt 42 aktualisiert das Modul 16 die Schatzun- 
gen. d6s Rauschens pro Band gemas den Fonheln:. 

^r,^i = Xg . B^.^ .j^ + (I Xb) • Sn,i (5) 

K.i = Yn,i-.Bn^l,i +(l -yn,i);Bn.i • * (6). . 

wobei eih^n Vergessensfaktor wie etwa 0 < < 1 
bezeichnet. Forme 1. (6) ' zeigt die Ber^icksichtigung des 
nicht-binaren StimmaktivitStsgrades yu,i- 

Wie obenstehend angegeben wurde, sind die Langzeit- 
schatzungen des Rauschens- B^ ^ Gegenstand einer Uber- 
bewertung durch ein Modul 45 (Pig, 1), bevor . die Rausch- 
unterdrilckung mittels nichtlinearer Spektralsubtraktion 
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vorgenommen wird. Das Modul 4S'berechnet den oben genann- 
ten Kbeffizienten der Uberbewertung a'n,i sowie eine 
majorierte Schatzung Bn,i die im wesentlichen a*^ • • 
Bn,i entspricht. 

Die Strukturierung des Uberbewertungsraoduls 45 ist in 
Fig. 6 dargestellt. Die majorierte SchStzung Bn,i wird 
erhalten durch Kombinieren der Langzeitschatzung 3^ ^ und 
eines Mafies AB^ der Veranderlichkeit der Rauschkorapo. 
nente in dem Band i um seine Langzeitschatzung. Bei dem 
betrachteten Beispiel ist dieses Kombinieren im wesentli- 
chen eine einfache Summe, die von . einem Addierer 4 6 
ersteilt wird. Es kpnnte sich hierbei auch um eine 
gewichtete Summe handeln. 



Der Uberbewertungskoeffizient a'^^^ ist gleich dem 
Ve.rhaltnis zwischen der vom Addierer 46 ■ gelief erten Summe 
^n,i AB^ff und der verzogerten LangzeitschStzung Bjj,^3^^ 
(Teiler 47) , die nach oben hin durch einen Grenzwert ot^iatx 

'20 beschrSnkt ist, beispielsweise a,^ax = ^ (Block 48) . Die 
Verzogerung x3 dient gegebenenfalls dazu, in den 
Anstiegsphasen (5 = l) den Wert des Oberbewertungskoeffi- 
zienten a'^i zu korrigieren, bevor die Langzeitschatzun- 
gen durch die Schritte 40 und. 41 von Fig. • .3. korxigiert 

25 worden sind (z.B. t3 = 3) . 

pie. majorierte. Schatzung Bn,i wird schliefilich 
gleich a' n,i * Bri-T3,i genomraen (Multiplizierer . 49) . 

30 Das Mafi der Veranderlichkeit des . Rauschens 

reflektiert . die Varianz des Sch§tzers des . Rauschens . ; Es 
wird. in Abhangigkeit von den Werten von S^^^ und von B^^i 
fur eine bestimmte Anzahl von vorherigen* Blocken* ber.ech- 
net, an denen das Sprachsignal. keine . Stimmaktivit4t in 

35 dem Band i aufweist. Es ist eine Punktion der fir eine 
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Anzahl .K von Blocken mit Stille (n-k ^ n) berechneten 
Abstande |Sn-k,i - Bn-k,i| • In . dem dargestellten Beispiel 
ist diese Funktion einfach das Maximum (Block 50)., Fur 
jeden Block n wird der* Grad der StimmaktivitSt y^^^ mit 
einem Schwellwert (Block 51) verglichen, urn zu entschei- 
den, ob der in 52-53 berechnete Abstand [Sn,i - Bn i| 
eine Warteschlange 54 mit K Stellen * geladen werden muS, 
die im Ersteirigang/Erstausgang-Modus . (FIFO) organisiert 
ist. Falls Yn^i den Schwellwert nicht ubersteigt (der 
gleich 0 sein kann, falls die Fuunktion g{) die Form vori 
Fig. 5 besitzt),. wird' die FIFO picht versorgt, wahrend 
sie es im entgegengesetzten Fall wird. Der in der FIFO -54 
enthaltene Maximalwert wird dann als MalS ABjJ^f der Vefan- 
derlichkeit geliefert. 

Das MaS AB^^ der- Veranderlichkeit kann als Variante . 
in Abhangigkeit von den Werten S^^f (anstatt S^^^^) und 
^n,i erhalten werden. AnschlielSend wird auf die. gleiche 
Weise,- mit der . Ausnahme, daS die FIFO 54 |Sn-k,i " Bn-jc i| 
nicht enthalt, . vorgegangen, jedbch eher 

max le * I 

f €(f(i.-l),f{i)[|^«-^'f " Bn-k,i|- 

Aufgrund der. unabhangigen Langzeitschttzungeh der 
Schwankungen des Rauschens B^^i- und seiner Kurzzeitveran- 
derlichkeit AB^j^ stellt der majorierte SchStzer Bn,i 
eihe ausgezeichnete. Robustheit des Rauschunterdruckungs- 
verfahrens gegen musikalische Gerausche zur Verfuguiig. 

Eine erste Phase der spektralen Subtraktion wird 
durch das in Fig. 1 dargestellte Modul 55 verwirklicht . 
Diese Phase liefert vor der Auf ISsung der Bander i (1 ^ i 
^ .1) den Frequenzgang ^ elnes ersten Rauschunter- 
druckuhgsf liters in Abhangigkeit von den* Komponenten ^ 

®n,i den Uberbewertungskoef f izienten a'^ j^. Diese 
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Berechnung ' kann fur jedes Band i durchgefflhrt werden 
gem§S der Formel: 

.5 . * • ' • 

wobei t4 eine als t4 ^ .0 (z.B. t4 = €) bestimmte ganz- 
zahlige Verzogerung ist. In dem Ausdruck (7) stellt. der 
Koeffizient p|; wie der Koeffizient Pp^ der Forme! • (3) ^ 
/eine Untergrenze dar, die klassischerweise zur Vermeidung 
.10 von negativen * Oder zu ' kleinen Werten des rauschunter- 
driickten Signals dient.' 

Auf bekannte Weise- (EP 0 534 837) konnte der Uberbe- 
wertungskoef f izient , a'n,i in der Formel (7) durch einen 

15 anderen Koef f izienten ersetzt* werden, der gleich einer 
Funktlon. von a'^^i und einer Schatzung des Rauschabstan- 
des (z.B. Sn,i/®n,i) ist, wobei diese Funktion gemaS dem 
SchStzwert des Rauschabstandes abnehmend is.t. Diese Funk- 
tion isf somit gleich a'j^ £* fOr die kleinsten -Werte des 

20 Rauschabstandes. Wenn das Signal stark verrauscht ist, 
ist es nSmlich a priori nicht sinnvoll, den Uberbewer- 
tungsfaktor zu .vermindem. Vorteilhaft nimmt diese Funk- 
tion fur die hochsten Werte des* Rauschabstandes gegen 
Null -bin ab. Dies ermdglicht einen Schutz der energie- 

25 reichsten. Zonen- des Spektrums, in dienen das Sprachsignal 
am bedeutendsten ist, wobei die von dem Signal zu'subtra- 
hierende GroSe somit gegen Null tendiert. 

Diese Strategic . kann verfeinert werden, indem sie 
3Q selektiv auf die Harmpnischen der Tonfrequenz • ("pitch") 
des Sprachsignala angewendet wird, wenn dieses eine 
Stimmaktivitat aufweist. . 
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Somit wirji bei der in Fig. 1 dargestellten Ausfflh- 
rungsform eine zweite Phase der Rauschunterdrackung durch 
ein Modui 56 zum Schutz der . Harmonischen durchgef uhrt . 
Dieses Modul berechnet. mit der Aufldsung der Fourier- 
Transformierung den Frequenzgang . h2 f eines zweiten 
Rauschunterdruckungsfilters in Abhangigkeit von den Para- 
metem H^ i, ^'n,i. K.i' ^n. S^^^ und der auSerhalb der 
Stillephasen durch ein Modul fflr die harmonische Analyse 
57 berechneten Tonfrequenz fp = P^/Tp. In einer Stille- 
phase (5n = 0) ist das Modul 56 nicht in Betrieb, d.h. 
Hn,f = K^,t jede Frequenz £. eines Bapdes i. Das Modul 

57 kann jegliches-bekannte Verfahren fflr die Analyse des 
Sprachsignals des Blocks anwenden, uni die Periode Tp zu 
bestitrtmen, die als ganze Zahl oder Bruchteil von Abtast- 
probfen angegeben wird, z.B." ein lineares Pradiktionsver- 
fahren. 

Der durch das Modul 56 zur Vierfflgung gestellte Schutz 
kanft darin bestehen, daB fflr jede zu einem Band.i gehdri- 
ge Frequenz f durchgefOhrt wird: 



H^f = 1 falls 



Sn.i O'h.i • B„.i>Pi • Bn.i " (8) 
und ganzzahliges 3ii / |f - ii • fp|. s Af / 2 (9) 
andernfallsH^;^ = Hi,f 



= ^e/N stent die spektrale Aufl6sung der Fourier- 
Transformation dar. Wenn H^'f = 1/ ist die von der Kompo- 
nente Sn^f zu substrahierende GroSe Null. In dieser 
Berechnung drucken die Untergrenzenkoeff izienten (z.B. 
Pi ~.Pil Urastand aus, daS bestimmte Harmonische der 

Tonfrequenz fp von Rauschen maskiert sein kdnnen, so daS 
es nicht ■ sinnvoll ist, sie zu schfltzen. 
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Diese Schutzstrategie wird vorzugsweise fur jede der 
Frequenzen angewendet, die am nachsten zu -den Harmoni- 
schen von fp sind, d.h. auf jedes ganzzahlige t]. 

5 Weiin man mit 6fp die Frequenzauf losung bezeichnet, 

bei der das Analysemodul 57 die geschatzte Tonfrequenz fp 
erzeugt, d.h. daS die reelle Tonfrequenz zwischen fp - 5 
fp/2 und fp + 5fp/2 liegt, dann kann der Abstand zwischen 
der Tj-ten Harmonischen der reellen Tonfrequenz und ihrer 

10 Schatzung Tixfp (Bedingung. (9))* bis ±nx8fp/2 gehen, Bei 
hohen Werten von T] kann dieser Abstand groSer als die 
. halbe spektrale Aufldsung Af/2 der Fourier-Transf ormier- 
ten seia. Urn diese Unsicherheit zu berucksiqhtigen und 
einen guten Schutz der Harmonischen der reellen Tonfre- 

15 quenz zu gewahrleisten, kann jede der Frequenzen des In- 
tervalls [i1 x fp - ti x 5 f p ./ 2, ?! x f p + n x 5 f p / 2] 

gesch€itzt werden,. d.h, die obenstehende Bedingung (9) 
kann ers.etzt werden durch: . 

20 ganzzahliges 3ti / |f - ti • fp| ^ (r] • 6 f p + Af) / 2 (9') 

Diese Schutzart (Bedingung 9') ist von besonderem 
Interesse, wenn die Werte .von t] groS sein kflnnen, insbe- 
sondere falls das Verfahren in .einem Breitbandsystem ver- 
25 wendet wird. 

Fur jede geschixtzte Frequenz kann der korrigierte 
Frequenzgang H^^f gemafi der obenstehenden Angabe gleich 1 
sein/ was der Substraktion einer GrSfie Null im Rahmen der 

30 • spektralen Subtraktion entspricht, d,h. einem kompletten 
Schutz der betreffenden Frequenz- Allgemeiner gesagt, 
dieser korrigierte Frequenzgang ^ kSnnte je nach- dem 
gewunschten Schutzgrad gleich einem zwischen 1 urid Hji f 
liegenden Wert genommen* werden, was der Sxxbtraktion einer 

35 Grflfie entspricht, die kleiner als diejenige ist, die zu 
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subtrahieren ware, wenn die betreffende Frequent nicht 
geschQtzt ware. . . • . 

Die' Spektralkomponenten S^^f eines rauschunterdrtick- 
. 5 ten Signals werden durch einen Multiplizierer 58 berech- 
fnet : 

^n,t = Hg,£ -Sn^f . (10) 

10 Dieses Signal S^ f wird an ein Modul 60. geliefert, 

das filr jeden Block n eine Maskierungskurve berechnet 
durch Anwenden eines psychoakustischen Modellsder Gehor- 
wahrnehmung durch das misnschliche Ohr. 

15 Das Phanomen der Maskierung ist ein von der Punktion 

des merischlichen Ohrs her bekaniites i?riniip. W<snn zwei 
Frequenzen gleichzeitig gehSrt. werden, ist es m6glich, 
daS eine von den beiden nicht mehr hdrbar ist . Man sagt 
dann, daS diese maskiert ist, 

20 - ■ \ * 

Es gibt . verschiederie Verfahrensweisen fOr die Berech- 
nung der Maskierungskurven. Beispielsweise kann die von 
J.D. Johnston ("Transform Coding of Audio Signals . Using 
Perceptual Noise Criteria", IEEE Journal on Selected Area 

25 in Communications, Vol; 6, Nr. 2, Februar 1988) ent- 
wickelte angewendet werden, Bei dieser Verf ahrensweise 
wird in der Frequenzskala der Barks gearbeitet. Die Mas-, 
kierungskurve wird als die Faltung der Funktion der spek- 
. tralen Dehnung der Basilarmembran im Bark-Bereich mit dem 

30 anregenden Signal bet rachtet,. bestehend in der vorliegen- 
den Anwendung aus dem Signal S^^f . Die spektrale Deh- 
nungsfunktion kann auf die in Fig; 7 dargestellte Weise 
modelliert werden, FUr jedes. Bark-&and wird der Beitrag 
der in Betracht gezogenen niederen und hohen Binder durch 

35 die Funktion der Dehnung der Basilarmembran berechnet:' 
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. . (iQlOAoy''-'''' ,4,, (io25/ipyr-q) ^^^^ . 

wobei die Indices q und q' die Bark-Bander (0 ^ q,q' 
5 :^ Q) bezeichnen, und fflr den Mittelwert der Kompo- 

nenten f des rauschunterdruckten Anregungssignals fiir 
die diskreten Frequenzen f steht, die zum Bark-Band q' 
geh6ren. . . 

10 Der Maskierungsschwellwert M^^q wird erhalten durch 

das Modul 60 far Bark-Band q gemalS der Formel: 

^n,q Cn^q/Rq (12) 

15 in der Rg von dem mehr. oder minder stimmhaften Cha- 

•rakter des Signals abhangt. Auf bekannte Weise ist eine 
mSgliche Form yon Rg: 



20 



lO.logio(Rq) = (A.+q). • X + B • (l - %) (13) 



wobei A =14,5 -und B= 5,5. % bezeichnet einen Stimm- 
haftigkeitsgrad des gprachsignals, der zwischen Null 
(keine Stimmhaf tigkeit) und 1 (stark stitncnhaf tes Signal) 
variiert. Der Parameter % kann die bekannte Form aufwei- 
25 sen: 



"I 



wobei* SFM In Dezibel das Verhaitnis zwischen ; dem 
30 arithmetischen Mittel und dem. geometrischen Mittel der 
Energie. der Bark-Bander angibt, und SFM,^.« -ffO dB. 
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Das Rauschunterdruckungssystem weist dariiber hinaus 
ein Modul 62 auf , das den Frequenzgang des Rauschunter- 
druckungsfi Iters in Abhangigkeit yon der durch .das Mbdul ' 
60 berechneten Maskierungskiirve ^,q ' und den durch das 
5 Modul 45 berechneten majorierten Schatzungen korrigiert. 
Das Modul 62 entscheidet uber. das Rauschunterdruckungs- 
niveau*, das tats§chlich* erzielt werden soil. 

Durch eirien Vergleich der Umhiillenden der majorierten 
10 Schatzung des Rauschens mit der durch die Maskierungs- 
schwellwerte gebildeteii Umhullenden wird entschie- 

den, das Signal nur in dem Mafie zii entrauschen, in dem 
die majorierte Schatzung B*^,! die Maskierungskurve uber- 
steigt. Dies vermeidet eine nutzlose Unterdrxickung von 
15 durch Sprache maskiert em. Rauschen. 

Die neue Antwort H^^f fir eine zu dem Band i geho- 
rende Frequenz f, die durch das Modul 12 und im Bark-Band 
q definiert wird, hangt . somit von dem relativen Abstand 
20 zwischen. der . majorierten SchatzUng B'j^^^ der entsprechen- 
den Spektralkomponente des Rauschens und' der Maskierungs- 
kurve Mn,q. folgendermaSen ab: * 



25 



H^..'l-(l-HL,)-ax| °'°t""''-'. -°l 



(14) 



Anders ausgedrfickt , die bei dem Vorgang der Spektral- 
subtiraktidn mit dem Frequenzgang H^^f yon einer .Spektral- 
komponente Sn^ft! ZU subtrahierende GroSe 1st im wesentli- 
chen. gleich- dem Minimum' zwischen der bei dem* Vorgang der 
3 0 Spektralsubtraktion mit dem Frequenzgang f von dieser 
Spektralkomponente • zu subtrahierenden GroSe einerseits 
und dem Bruchteil der. majorierten Schatzung B'j^^i der 
entsprechenden Spektralkomponente des Rauschens anderer- 
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seits, die gegebenenfalls die Maskierungskuarve M^^q liber- 
steigt. ■ * ^ 

• Fig. 8 veranschaulicht das Prinzip der durch das 
5 Modul 62 angewendeten Korrektur. Sie zeigt schematisch 
ein Beispiel fur eine auf der Grundlage der Spektral- 
komponenten sj^f . des rauschunterdruckten Signals sowie 
der majorierten SchStzxing B'^ ^ des Spektrums des Rau- 
schens berechnete Maskierungskurve M^^q. Die schlieSlich 
10 .von den Komponenten S^-^f zu subtrahierende GrdSe ist die 
durch die schraf f ierten Bereiche dargestellte, d.h. die- 
jenige, die auf den Bruchteil der majorierten Schatzuhg 
B*n/i der Spektralkomponenten des Rauschensi das die Mas- 
kierungskurve libersteigt, begrenzt ist. 

15 • 

Diese Subtraktion * wird durch Multiplizieren des Pre-. 
. quenzgangs H^^f des Rauschunterdruckungsf ilters mit den- 
Spektralkomponenten ^n,t* Sprachsignals 

(Multiplizierer 64) durchgef dhrt . Ein Modul 65 rekonstru- 
20 iert sodann das rauschunterdrrickte Signal im Zeitbereich 
. mittels . Durchfflhrung der schnellen inversen Foutier- 
Transformierung (TFRI) der vom Multiplizierer 64 gelie- 
ferten Abtastproben der Frequenz Sj^^ . Bei jedem Block 
werden einzig die' N/2 = 128 ersten Abtastproben des durch 
25 das Modul 65 erzeugten Signals als endgQltiges- rausch- 
unterdrucktes Signal s^ ' geliefert, nach Rekonstruktion 
mittels Addition-Oberlappung • mit . den N/2 = 128 letzten 
Abtastproben des vorangegangenen Blocks (Modul 6^6) . 
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Anspruche • ' 

1, Verfahren zum Erfassen von Stimmaktivitat in eiriem in 
aufeinanderfolgenden Blocken behandelten digitalen 
Sprachsignal (s) , bei detn das Sprachsignal einer 
Rauschunterdfuckung unter Berucksichtigung von Schat- 
zungen des. im Signal enthaltenen Rauschens unter zogen 
wird, die fur jeden Block auf eine Weise aktualisiert 
werden, die von zumindest einem fiir den betreffenden 
Block bestimmten Grad der Stimmaktivitat (yn,i) 
abhSngt, dadurch gekennzeichnet , daS eine aprioriGche 

. Rauschunterdruckung des Sprachsignals eines jeden 
Blocks auf der Grundlage von SchcLtzungen de& Rau- 
schens durchgefiihrt wird, die bei der Behandlung von 
mindest^ns einem vorhergehenden Block erhalten vmr- 
. den, und die Variationen der Energie des apriorisch 

• raus'chunterdrflckten Signals analysiert werden, um den 
Grad- der Stimmaktivitat des Blocks zu erfassen. 

2. Verfahren nach Anspruch 1,. bei. dem der Grad der 
Stimmaktivitat (Yn,i) nicht-binirer Parameter 
ist. . • • ' • ■ 

3. Verfahren nach Anspruch 2, bei dem der Grad der 

• Stimmaktivitat (Tnji) eine stSndig zwischen 0 und 1 
. variierende Funktion ist, 

4, Verfahren nach einem der vorhergehenden AnsprGche, 

. bei dem die Schatztmgen des Rausqhens in verschiede- 
nen Frequenzbahdera des Signals erhalten werden, die 
apriorische Rauschunterdriickung Band fiir Band durch- 
gefiihrt wird, und ein Grad der Stimmaktivitat (yn,i) 
fiir jedes Band best immt wird. 
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5. Verfahrien nach einem der vorhergehenden Anspruche, . 
bei dem eine Schatzung des Rauschens B^^^ fur den 
Block n in einem Frequenzband i in der Form . 

5 • ; ' * • * ■ ' ' 

.'"it Bn,i = ^ • Bn-i.l + (1 - Xb) - Sn^i . 

10 erhalten wird, 

wobei ^3 ein zwischen 0 und 1 . liegender Vergessens- 
faktor ist, y^,! Block n im Frequenzband 

i bestimmte G'rad der- StimmaktivitSt ist, und S^^i ein 
Mittelwert der Amplitude des Spektrums des Spfach- 

15 signals des Blocks n im Bclnd i ist. 

6. Verfahren nach Anspruch 5,. bei dem das apriorisch 
rauschunterdr\ickte Signal Ep^^ ^ bezuglich eines 
Blocks *n und eines Frequenzbandes i die Form auf- 

20 weist: 

Ep^,i = "»a^{«Pn,i • Sn,i , PPi • Brt-Ti,i} 

wobei Hp^ i. = " ^n-xl.i ' Bn-Ti,i ^ ^.^^ ^^^^^ 

25 . Zahl von mindestens gleich 1 ist, t2 eine ganze Zahl 

von mindestens gleich 0 ist, otn-Ti,i 

Block n-Tl' und das Band i bestimmter Oberbewertungs- 
koeffizient ist, und Pp^ ein positiver Koeffizient 
■ ist. • * * 



30 



Verfahren nach einem der vorhergehenden . Anspruche, 
bei dem eine Langzeit schatzung (En,i) der Energie des 
apriorisch rauschunterdruckten Signals • (Epj^^) 
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berechnet wird -und diese Langz.eitschatzung mit einer 
an dem betreffenden Block berechneten, momentanen 
Schatzung (ba) dieser Energie verglichen wird, urn den 
* Grad der Stimmaktivitat (Yn^i^ Blocks • zu erhal-- 

ten. 

8.' Stimmaktivitat-Erfassungseinrichtung mit einer zum 
Durchf ahren eines Verf ahrens nach • einem' der yorher- 
gehenden Anspruche konzipierten Behandlungseinrich- 
tung. 
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□ BLACK BORDERS 

□ IMAGE CUT OFF AT TOP, BOTTOM OR SIDES 

□ FADED TEXT OR DRAWING 



\ia BLURRED OR ILLEGIBLE TEXT OR DRAWING 

□ SKEWED/SLANTED IMAGES 

□ COLOR OR BLACK AND WHITE PHOTOGRAPHS 

□ GRAY SCALE DOCUMENTS 

□ LINES OR MARKS ON ORIGINAL DOCUMENT 

□ REFERENCE(S) OR EXHIBIT(S) SUBMITTED ARE POOR QUALITY 

□ OTHER: \ 

IMAGES ARE BEST AVAILABLE COPY. 
As rescanning these documents will not correct the image 
problems checked, please do not report these problems to 
the IFW Image Problem Mailbox. 
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